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Автоматическое определение границ 
текущих объектов исследования 

для решения задач пеленгации, сегментации 
речевых и специальных сигналов 


Разработан метод автоматического определения границ текущих объектов исследования в образах 
звуковых волн, инвариантный к темпу, тембру и интенсивности принятого акустического сигнала. 
В качестве текущих объектов исследования выступают отрезки амиплитудно-временного представления 
волнового процесса, соответствующие фонологическим единицам, в формировании которых участвует 
голосовой источник (для речевых сигналов) и тональным сигналам (для специальных сигналов). На основе 
предлагаемого метода разработан алгоритм, который успешно применен в задачах пеленгации на макетной 
установке системы технического слуха. 


Введение 


В проблеме искусственного интеллекта, которая является одной из ключевых в 
робототехнике, важное место занимают вопросы создания технических аналогов ор- 
ганов чувств. Их действие основано на моделировании операций, выполняемых органами 
чувств живых организмов. К их числу относятся: зрение, слух, осязание, вкус и обо- 
няние. Акустические средства коммуникации имеют ряд преимуществ перед всеми 
остальными средствами: скоростью, гибкостью (проникают через не очень плотные 
вещества, огибают препятствия), не зависят от светового фактора, всенаправленного 
действия [1]. В настоящее время актуальной является разработка алгоритмов обработки 
акустических сигналов для интеллектуальных систем технического слуха (СТС): пе- 
ленгация речевых и специальных сигналов — свистка, дудочки (далее акустических 
сигналов — АС); получение и обработка «звуковой картины» окружающего пространства, 
с целью обнаружения требуемых АС и их верификация. 

Качественное решение указанных задач зависит от метода выбора границ теку- 
щего объекта исследования (ОИ) -— временного интервала, на котором определяются 
искомые характеристики сигнала. Например, для решения задач пеленгации АС в ка- 
честве ОИ выбирают некоторый временной отрезок, на котором при помощи частотных 
методов или методов сравнения принятого микрофонами сигнала оценивается временная 
задержка или фазовый сдвиг. Границы текущего ОИ для каждого типа АС определя- 
ются субъективно на основе статистических данных, и их выбор влияет на точность 
пеленгации [2-4]. Очевидно, что решение задачи автоматического определения границ 
текущих ОИ безотносительно типа пеленгуемого сигнала позволит повысить точность 
пеленгации. 

Следует отметить, что в АС, указанных выше, возможно различить звуки опре- 
деленной высоты (звуки подавляющего большинства музыкальных инструментов, 
также пение), а высота звука (или высота тона) определяется частотой собственного 
колебания системы, а следовательно, самой природой этой системы (для речи -— час- 
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тота вибрации голосовых связок), поэтому в качестве ОИ должны выступать отрезки 
сигнала, соответствующие функционированию голосового источника (для речи) или 
тональным звукам (для специальных сигналов). 

Решение задачи автоматического определения границ текущих ОИ также воз- 
никает при сегментации речевых сигналов (РС), когда необходимо определить границы 
сегментов, соответствующих фонологическим единицам, в формировании которых 
участвует голосовой источник (носитель тона). Носителями тона чаще всего являются 
гласные, но встречаются языки, где в этой роли могут выступать и согласные, чаще 
всего сонанты. Для решения задачи сегментации тональных звуков используют «окна» 
фиксированной длительности, их размер и границы выбираются на основе субъек- 
тивных данных [5-8]. Очевидно, что вариативность произнесения одного слова у одного 
диктора бесконечное множество, поскольку предопределяется его темпом, тембром, 
интенсивностью, а также рядом психологических факторов. Поэтому априорное за- 
дание границ и длины ОИ без учета случайности поведения характеристик РС не 
позволяет качественно решить указанную задачу. 

Общность целей при разработке алгоритмов пеленгации и сегментации РС по- 
зволяет в дальнейшем перейти к следующей постановке задачи. 


Постановка задачи 


Исходные данные для решения поставленной задачи: 

1. 0) п =ЬМ = образ звуковой волны (ОЗВ), или амплитудно-временное пред- 
ставление волнового процесса (АВП ВП). 

2. Последовательность характеристик функции Ц(п): границы квазипериодов 


(ПК) — [1;1.), где {=М , М - количество ПК на АВП ВП; длины ПК - 4,; длины 
положительных и отрицательных полуволн ПК — 4,4; ; амплитуды ПК, амплитуды 


положительных и отрицательных полуволн ПК —и,7’,. ; адреса локальных и гло- 


бальных экстремумов на ПК. ПК обозначим К,, 1=1,М (рис. 1). Следует отметить, 


что характеристики ПК получены с учетом двух уровней АЦП, которые мы отож- 
дествляем с уровнем нуля вольт. Рассуждения и метод определения границ ПК и его 
характеристик приведены в [8]. 
Необходимо: 

— разработать метод автоматического определения границ текущих ОИ в ОЗВ, инва- 
риантный к темпу, тембру и интенсивности принятого акустического сигнала. В качестве 
текущих объектов исследования должны выступать отрезки АВП ВП, соответствую- 
щие фонологическим единицам, в формировании которых участвует голосовой источник 
(для РС), и тональным сигналам (для специальных сигналов). 
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Рисунок 1 — Характеристики К, функции И(п) 
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Отметим, что представленная работа выполнена в рамках договора о творческом 
сотрудничестве между ИПММ НАН Украины (г. Донецк) и ИПМ им. М.В. Келдыша 
РАН (г. Москва, Россия). 


1. Энергетически завершенные фрагменты в ОЗВ 


Отказаться от проблемы использования «окон» при автоматическом выборе те- 
кущего ОИ возможно на основе следующих рассуждений. 

Физический процесс в природе называют энергетически завершенным (Э3), если 
его можно представить в виде следующих фаз его развития [11]: экскурсия (фаза зарож- 
дения — Э), выдержка (фаза существования — В) и рекурсия (фаза угасания -— Р) (рис. 2). 


физический 
процесс 


выдержка 


экскурсия 


рекурсия 


время 


Рисунок 2 — Энергетически завершенный физический процесс 


С физической точки зрения размах амплитуды ПК АВП ВП определяется энер- 
гией, которую несет в себе звуковая волна. Таким образом, задача состоит в локализации 
на АВП ВП объекта исследования, представляющего собой ЭЗ фрагмент (Э3Ф) функ- 
ции О(и) , изменений энергии на котором отображает указанные выше фазы. 


В качестве примера можно привести изменение состояния органов голосового 
тракта, в результате которого происходит формирование элементарных звуковых форм, 
составляющих речевое сообщение. Очевидно, что для их реализации необходимо 
время и перестройка органов голосового тракта. Следовательно, структуру речевого 
сообщения можно рассматривать как последовательность элементарных звуковых 
форм, характеризующихся участками устойчивых состояний и переходных процес- 
сов (рис. За, 6). 

Акустический сигнал, полученный в результате функционирования дудочки 
(или свистка), также представляет собой последовательность элементарных звуковых 
форм, которые можно рассматривать в контексте завершенного физического процес- 
са (рис. 3 в, г). 

На основе анализа характера поведения последовательности характеристик {и} 


на ПК {К}, определим ЭЗФ из условия: 


>И = ыы < И <, 7 7 = *, и 


74 рт? 1+р1 р 4р2-— == 4р2 2 ‘1+р2 1+р3-1 
тде 1е №: Ур1= 0,5, пн, ы, 52е М: Ур2=0,52, Г, ЕТ, 
53 =: Ур =0,53, пап, 54е М: \р4=0,54, ПП. 
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Рисунок 3 —а) АВП ВП фонемы «о», в) АВП ВП функционирование свистка, 
6) последовательность ЭЗФ для фонемы «о» и г) — для свистка 
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Границы ЭЗФ определяются аналогично границам ПК [9], [11]. 


ЕЙ Я Г.П, (2) 

ие : ие = 1" для 7. < 7 ры 2 (3) 

у : 7 = р для 7 ры < Тр = 7.4 р2 в 7. 3-1 и (4) 
ое о (5) 
05 : 05 № й № ты для 7+ рз = 7-4 ы рн ь (6) 


Отметим, что выдержка может быть представлена одной точкой. 
На основании приведенных выше рассуждений дадим определение КС и ЭЗФ. 


Определение 1. Полуинтервал [1";1;) функции И(п) ,‚ границы которого опре- 
делены согласно соотношениям 1 - 6, будем называть квазипериодической структурой 
(КС) (рис. 4 а); последовательность характеристик ПК {и,}/_‚ на этом полуинтервале, 
удовлетворяющим условию (1), будем называть энергетически завершенным фраг- 
ментом первого уровня; 5-й ЭЗФ функции И(п) обозначим Ё', 71° количество ПК в 


К! (рис. 4 6). 
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6) 
Рисунок 4 —а) последовательность квазипериодических структур, согласованных с 


6) — последовательностью ЭЗ фрагментов 


Введенное выше определение 1 не позволяет решить задачу определения границ 
искомых ОИ, так как следует рассматривать последовательность ЭЗФ, а следователь- 
но, последовательность КС, объединенных между собой на основе анализа «близости» 
характеристик АВП ВП на указанных фрагментах. 
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Анализ КС показал, что в рамках одного сигнала, излучаемых одним источни- 
ком (диктором, свистком, дудочкой), их длины могуг варьироваться, но должны быть 
близки. Характер изменения хотя бы одной характеристики на соответствующих КС 
должен быть одинаковым. Для решения задачи введем далее определения «близос- 
ти» характеристик КС. 


2. Однородные квазипериодические структуры 


На основе представленного рассуждения следует, что границы текущих ОИ, содер- 
жащих КС, необходимо выбирать как последовательности энергетически завершенных 
отделимых структур с близкими между собой характеристиками без использования 
языковых критериев, безотносительно к фонологическому составу принятого рече- 
вого сообщения, а также информации о принятом АС. 

Определение однородности характеристик ПК рассмотрено в [9], [13]. Дадим 
обобщенное определение «близости» двух фрагментов функции И(п). 


Определение 2. Сужение функции И(и)на [а;Ь) и сужение функции И(п) на 


[с; а) называют «близкими», если существует изоморфное отображение Р: Казту 
ат ‚ где & — количество ПК на ЭЗФ с соответствующими характерис- 


тиками аз для ((п) и кат) для Ц(п). «Близость» И(п) и И(п) будем 
/ у 
[а;Ь) [;4) [а;Ь) [;4) 
обозначать ЦИ(п) @И(п). 
[а;5) — [с;4) 

Две КС, для которых выполнимо определение 2, будем называть однородными 
квазипериодическими структурами (ОКС) (рис. 5). ОКС и будут выступать в качест- 
ве текущих ОИ. 


7850 7900 7950 8000 8050 8100 8150 8200 8250 8300 8350 8400 8450 8 500 8550 8500 8550 8700 8750 8 800 8850 


Рисунок 5 — Пример однородных квазипериодических структур 


Изложенные выше рассуждения положены в основу алгоритма, реализующего 
автоматический выбор текущего ОИ, соответственно определение его границ в ОЗВ. 
Как было указано в постановке задачи, в качестве ОИ выступают ОКС, соответст- 
вующие голосовому источнику или ОТ. 
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3. Алгоритм автоматического определения 
границ текущих ОИ 


На рис. 6 представлена структурная схема решения задачи автоматического оп- 
ределения границ текущих ОЙ. 
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Рисунок 6 — Структурная схема алгоритма решения задачи автоматического 
определения границ текущих ОИ 


Фиксирование Анализ «близости» 
границ ОКС КС между собой 


Рассмотрим основные особенности его функционирования. 

Как показано на рис. 6, алгоритм решения задачи автоматического определения 
границ текущих ОИ состоит из следующих блоков: 

1) определение границ ПК и их характеристик - в данном блоке определяются 


границы ПК [/;/,)с учетом двух уровней АЦП, а также характеристики ПК — длины 
ПК —4,; длины положительных и отрицательных полуволн ПК -— 4,4; ; амплитуды 


ПК, амплитуды положительных и отрицательных полуволн ПК — и,и’,и ; адреса 


локальных и глобальных экстремумов на ПК [9]; 

2) определение границ КС, согласованных с ЭЗФ - в этом блоке определяют 
ЭЗФ В! из условия 1 раздела 1, а также границы КС [1’;["’), согласованные с ЭЗФ 
из условий 2 — 6 раздела 1; 

3) анализ «близости» ПК внутри каждой КС - рассматриваются ПК в каждой 
КС, определяется количество похожих ПК. Правило определения близости в общем 
виде дано в разделе 2 (определение 2), подробное описание определения «близости» 
характеристик ПК рассмотрено в [9], [10]; 

4) анализ близости КС между собой — после того, как рассмотрены все КС и 
определены близкие между собой ПК внутри каждой структуры, анализируются все 
найденные КС между собой на близость характеристик согласно определению 2. От- 
метим, что «похожие» КС между собой могут быть определены на некотором расстоянии 
друг от друга. Для такого случая КС должны иметь «пару». Если решение о «близости» 
КС не принято, то рассматриваются случаи «расщепления» сигнала — для этого по- 
следовательно объединяют слева (или справа) два ПК (для КС с большим количест- 


вом ПК ип°), далее определяют характеристики обобщенного ПК согласно блоку | и 


вновь производят анализ близости двух КС; 
5) фиксирование границ ОКС — после полного анализа все КС принимается 
решение о фиксировании границ ОКС. 
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4. Экспериментальные исследования 
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Рисунок 7 — Пример работы алгоритма определения границ ОИ 


Алгоритм определения ЭЗФ и ОКС был опробован на статистическом материа- 
ле: для РС - на 13 дикторах (мужчин и женщин), каждый из которых произносил по 
15 слов (список слов общий); для специальных сигналов — свисток и дудочка (длитель- 
ность и амплитуда таких сигналов зависит от объема легких диктора и мощности 
воздуха, вдуваемого в отверстие свистка или дудочки). 

На рис. 7 показан результат работы алгоритма определения границ ОИ: для РС — 
а), 6) слова «душа», 6) свисток. 

Как показано на рис. 7 а), границы сегментов, соответствующие функционирова- 
нию голосового источника, выделяются со 100 % точностью (выделены фонемы «д», 
«у», «а»), аналогичный результат получен для специальных сигналов (рис. 7 6). 


«Штучний 1нтелект» 22009 47 


Хашан Т.С. 
1х 


Заключение 


Основным результатом данной работы является разработка метода, на осно- 
вании которого решены задачи выделения в образах звуковых волн однородных ква- 
зипериодических структур без константных и априорно-заданных величин. На основе 
предлагаемого метода разработан алгоритм, который успешно применен в задачах 
пеленгации на макетной установке СТС, а также при решении задач сегментации ре- 
чевого сигнала — определение границ сегментов, соответствующих фонологическим еди- 
ницам, в формировании которых участвует голосовой источник. Выводы относительно 
различных фрагментов АВП ВП производятся исключительно в результате анализа их ха- 
рактеристик. 
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Т.С. Хашан 

Автоматичне визначення меж поточних 0б’ектв дослёдження для ришення задач пеленгацй, 
сегментацй мовних 1 спещальних сигнал в 

Розроблено метод автоматичного визначення меж поточних об’ектв досл1дження в образах звукових 
хвиль, 1нварантний до темпу, тембру Й 1нтенсивност! прийнятого акустичного сигналу. Поточними об’ектами 
дослидження виступають в1др1зки амипттудно-часового подання хвильового процесу, що вдповдають 
фоноломчним одиницям, у формуванн! яких бере участь голосове джерело (для мовних сигналив) 1 
тональним сигналам (для спещальних сигнал!в). На основ! пропонованого методу розроблено алгоритм, 
що успипно застосовано у завданнях пеленгаци на макетний установ! системи техн!чного слуху. 


Т.5. Кпазйап 

Тве Аиютае@ Реегттайоп о? Воипданте$ о? СиггепЕ ОЦесё шуе5йоайоп$ гог ЗоУш? 

пе РгоЫетз о? Ошгесйоп Ето, Зеотешайоп о{ ЗреесВ апд Зрес1а! $!опа[5 

ТБе тефод оЁ ехгасНоп оРапая-ренод!с зитасвагез ш итаее$ оЁзоип4 ууауез 15 ри ш а Баз15 оЁргорозе4 аеогИлт оЁ 
несноп ЯпАте оЁап асоизйс $1епа|. Ргорозе4 тео 40ез поё сопаш а рйоп Кпо\т сопзат ап4 1$ шуапап ю 
гае, итабге ап пцепзИу оРФе ассере асойзс 1епа]. Ргезете4 гези $ сап Бе аррИе4 а[5о г гезоМп® йе ргоМет 
орзеотлещайоп оЁа зреесЬ уепа|. 
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